Vamos investigar a existência de tipos de filmes quanto a idade dos personagens e a quantidade de palavras que eles falam, para cada gênero de personagem (femino e masculino). Será que existem grupos que definem comportamentos comuns para os filmes analisados? Por exemplo: será que mulheres mais velhas falam mais que as mulheres mais novas? Ou será que os homens falam mais que as mulheres? Essas são apenas algumas interrogações que nos vem a mente e que podem surgir como resultado de grupos de filmes.

Dimensões escolhidas para análise

Antes de escolher as dimensões foi necessário realizar um merge dos dados e filtrar alguns dados que continham campos nulos ou vazios, como a idade dos personagens.

Foram escolhidas quatro variáveis numéricas para realizar a análise, que foram calculadas a partir do conjunto de dados. São elas: mediana da idade de personagens do sexo feminino no filme (age_f), mediana de palavras dos personagens do sexo feminino no filme (words_f), mediana da idade de personagens do sexo masculino no filme (age_m), mediana de palavras dos personagens do sexo masculino no filme (words_m).

O conjunto de dados submetido a análise contém, para cada filme, uma observação com valores para cada variável mencionada acima.

Agrupamento multidimensional utilizado k-means

O valor de k

Para realizar o agrupamento, antes precisamos escolher um bom valor para k, onde k indica basicamente o número de grupos que iremos identificar no conjunto de dados. Uma medida muito usada no k-means é comparar a distância (quadrática) entre o centro dos clusters e o centro dos dados com a distância (quadrática) entre os pontos todos nos dados e o centro dos dados. Quando essa medida parar de crescer, significa que não vale à pena aumentar o k.

Ao observar o gráfico acima percebemos que o melhor valor de k para o nosso caso seria 4, já que apartir de 4 a medida que mencionamos acima começa a parar de crescer.

Agrupando os dados em 4 grupos

Observando o gráfico acima e olhando a direção em que as linhas dos filmes cruzam e tocam cada uma das variáveis ou coordenadas podemos observar grupos que caracterizam os filmes que ali cabem.

##   PC   std.dev percent cumulative
## 1  1 1.1830904 0.34993    0.34993
## 2  2 1.0959432 0.30027    0.65020
## 3  3 0.8874561 0.19689    0.84709
## 4  4 0.7820660 0.15291    1.00000

Redução de dimensionalidade usando PCA (Análise de Componentes Principais)

Logo abaixo podemos ver a visualização 2D da redução de dimensionalidade das 4 dimensões mencionadas anteriormente.

Descrição e interpretação da redução

PC1 e PC2 são as duas variáveis criadas para substituir as 4 variáveis originais de antes da visualização. PC1 e PC2 são úteis se conseguirmos entender a relação delas com as variáveis originais. Na técnica denominada PCA, cada uma dessas novas variáveis é calculada a partir das 4 iniciais.

Observando o gráfico, words_m e words_f variam quando um ponto está mais à esquerda ou direita no gráfico (direção de PC1), mas não variam muito em função da posição de um ponto no eixo vertical (direção de PC2). Já n_f e n_m estão mais relacionada com PC2, enquanto words_m e words_f praticamente não estão.

Seguindo a mesma leitura, n_f e n_m variam principalmente na medida que os pontos estão mais acima ou abaixo no gráfico (PC2), mas também em função de quão à esquerda ou direita eles estão.

Outra forma de ver a informação que o gráfico mostra é vendo PC1 e PC2 como duas funções das 4 variáveis originais, vejamos abaixo.

##   PC      age_f      age_m    words_f    words_m
## 1  1  0.6505657  0.6481060 -0.2882244 -0.2713846
## 2  2 -0.2783180 -0.2812107 -0.6443512 -0.6544243

Os valores na tabela são os coeficientes, e a leitura é que:

PC1 = 0.650age_f + 0.648age_m - 0.288words_f − 0.271words_m e PC2 = - 0.278age_f - 0.281age_m - 0.644words_f - 0.654words_m.

Em PC1, mudar uma unidade nas 2 primeiras variáveis aumenta PC1 e faz com que um ponto esteja mais à direita no gráfico. Já words_f e words_m têm efeito negativo e de menor efeito por unidade do que as duas primeiras. A unidade aqui é em z-scores: todas as variáveis foram normalizadas com scale antes da redução de dimensionalidade, para que seu efeito ficasse comparável.

Em PC2, mudar uma unidade nas 4 variáveis diminui PC2 e faz com que um ponto esteja mais à cima ou abaixo no gráfico.

Correlação entre as variáveis e os PCs

Podemos perceber que as variáveis são pouco correlacionadas. De certa maneira, isso não significa que elas não tenham informação parecida. As variáveis words_m e words_f são pouco correlacionadas mas as duas são componentes principais para trazer informação para PC1, por isso, PC1 é uma função dessas 2 variáveis. Como n_m e n_f não trazem muita informação para PC1, o método PCA cria PC2 que vai ser representado por estas duas variáveis que são menos correlacionadas com as demais. Da mesma forma, n_f e n_m são pouco correlacionadas mas a união delas trás muita informação para PC2.

Interpretação dos grupos presentes na visualização

Podemos entender que existem 4 grupos de filmes segundo as 4 variáveis que usamos.